上海AI实验室开发&
这项由上海AI实验室的詹润哲、李亚福等研究人员联合澳门大学、南京大学、香港中文大学共同完成的研究于2025年10月发表在arXiv预印本平台(论文编号:arXiv:2510.02245v1),有兴趣深入了解的读者可以通过该编号查询完整论文。
这项由上海AI实验室的詹润哲、李亚福等研究人员联合澳门大学、南京大学、香港中文大学共同完成的研究于2025年10月发表在arXiv预印本平台(论文编号:arXiv:2510.02245v1),有兴趣深入了解的读者可以通过该编号查询完整论文。
实验结果显示,与传统的在线策略RLVR(基于可验证奖励的强化学习)方法相比,ExGRPO在不同基准上均带来了一定程度的性能提升。